Exploración de data

Column

Variables a utilizar

En la data figuran, además de las variables a analizar, las variables de año, nombre del país (Country Name), código del país en código ISO de 3 letras y la región a la que pertenece cada uno de los países en cuestión.

Las variables seleccionadas son Participación femenina en parlamentos nacionales, el crecimiento del PBI anual, la tasa de graduación de mujeres en educación superior, tasa de participación femenina en la fuerza laboral por país,la estimación de la estabilidad política y ausencia de violencia por país y la estimación del control de corrupción por país. La participación femenina en parlamentos nacionales será utilizada como la variable dependiente. Se evalurá si las otras variables mencionadas la afectan y explican. Asimismo, la calificación de igualdad de género por país será utilizada como la variable de control.

Breve descripción de cada variable:

  • Participación femenina en parlamentos nacionales (escanos): Variable representada por el porcentaje de escaños asignado a mujeres en cada país.
  • Crecimiento del PBI anual (PBI): Indica el porcentaje de cambio en la economía de un país de un año a otro
  • Tasa de graduación de mujeres en educación superior (educacion_superior): Porcentaje de mujeres que completan la educación superior en un país, en comparación con el total de la población femenina en la edad típica de graduación.
  • Tasa de participación femenina en la fuerza laboral por país (fuerza_laboral): Mide el porcentaje de mujeres que participan activamente en el mercado laboral de un país
  • Estimación de la estabilidad política y ausencia de violencia por país (estabilidad_politica): Indicador que mide la estabilidad política de un país y la ausencia de violencia y conflictos. Un valor más alto indica un entorno político más estable, mientras que un valor bajo refleja mayores niveles de inestabilidad y violencia
  • La estimación del control de corrupción por país (corrupcion): Representa la percepción del nivel de corrupción en el gobierno de un país
  • Calificación de igualdad de género por país (igualdad): Mide qué tan equitativo es un país en cuanto a oportunidades y derechos entre hombres y mujeres, con un valor más alto indicando una mayor igualdad y un valor bajo reflejando disparidades significativas entre géneros.

Los gráficos analizan las variables exclusivamente para el año 2020 como parte de un análisis exploratorio.

Gráfico de Barras de la Variable Dependiente de países por Región

Column {data-width=500}

Gráfico de la variable dependiente: Participación femenina en parlamentos

NORMALIZAMOS LOS DATOS EN UNA ESCALA DEL 1 AL10

Estabilidad Política por Regiones

Corrupción por Regiones

Nivel de Educación Superior por Regiones

PBI por Regiones

Fuerza Laboral Femenina por Regiones

Descripción de variables

Column

Variable dependiente e independiente

La variable “escanos” será el foco de este análisis para evaluar cómo las variables seleccionadas pueden influir en ella. Además, es necesario establecer la relación entre “escanos” (la variable dependiente) y las variables independientes y de control.

En cuanto a la data del año en cuestión, 2020, la variable dependiente muestra una distribución sesgada, ya que, al verificar los valores de la media con 23.94 y la mediana con 22.58, observamos una distribución hacia la derecha. Esto sugiere que hay países con niveles de participación femenina muy altos que están empujando el promedio hacia arriba.Sin embargo, como la mediana es menor que la media, la mayoría de los países tienen una proporción de participación femenina más baja que el promedio. Por tanto, se ve na tendencia hacia niveles bajos o moderados de participación femenina en los parlamentos, lo que indica que todavía no se ha alcanzado una representación equitativa en muchos contextos.

Resumen estadístico de la variable dependiente:

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   0.00   15.00   22.58   23.94   31.15   61.25 

Histograma de participación femenina en los parlamentos en el año 2020

> Como se observa, hay un sesgo hacia la derecha.

Boxplot de participación femenina en los parlamentos por regiones en el 2020

> Europa Occidental lidera en representación femenina, con la mediana más alta y valores consistentemente elevados, a pesar de dos outliers bajos. En contraste, Oceanía tiene la menor representación, con la mediana más baja y una notable dispersión, destacando un único outlier positivo. Norteamérica, por su parte, presenta niveles moderados y uniformes, reflejados en una mediana intermedia y sin dispersión significativa.

Column

Summary de variables númericas

Recordar que los valores están siendo redondeados.

Str de todas las variables

Column {data-width=500}

Gráfico de la Matriz de Correlaciones

                     escanos   PBI educacion_superior estabilidad_politica
escanos                 1.00  0.03               0.09                 0.14
PBI                     0.03  1.00              -0.18                -0.08
educacion_superior      0.09 -0.18               1.00                 0.28
estabilidad_politica    0.14 -0.08               0.28                 1.00
fuerza_laboral          0.19  0.07               0.06                 0.30
corrupcion              0.25 -0.05               0.26                 0.78
                     fuerza_laboral corrupcion
escanos                        0.19       0.25
PBI                            0.07      -0.05
educacion_superior             0.06       0.26
estabilidad_politica           0.30       0.78
fuerza_laboral                 1.00       0.26
corrupcion                     0.26       1.00

Se optó por este gráfico debido a que en los gráficos de dispersión, al ser tantos países, no se observaba si había o no correlación.

Modelos de regresión

Column

Regresión de Gauss

Nuestra variable dependiente es una númerica continua sin acotar, por lo que ejecutaremos regresiones gaussianas.

En la primera regresión, todas las variables independientes mantienen una relación positiva respecto de la variable dependiente, excepto estabilidad política. Las variables estadísticamente significativas son fuerza laboral y corrupción, y se visualiza que el R2 ajustado es muy bajo.

En ese sentido, se procede a estandarizar la regresión para visualizar el efecto real de las variables independientes en la dependiente. Se observa que el AIC se mantiene. Fuerza laboral y corrupción se mantienen como significativas con efectos de 1.85 con significancia de 0.05 y 4.12 con significancia de 0.01.

Incluyendo nuestra variable de control (igualdad), observamos que el R2 ajustado presenta una importante mejora y que las variables estadísticamente significativas no son solo estabilidad política y corrupción, sino también igualdad y educación superior.

Comparando los efectos de las variables independientes en el modelo estandarizado sin la variable de control y el modelo estandarizado con la variable de control, se identifica que el R2 ajustado explica mejor la variabilidad, es decir, incrementa, por la variable de control. Elaborando una Tabla Anova, seleccionamos como mejor modelo la regresión que incluye la variable de control igualdad.

Column {data-width=400}

Regresión


Call:
lm(formula = escanos ~ PBI + educacion_superior + estabilidad_politica + 
    fuerza_laboral + corrupcion, data = data)

Residuals:
    Min      1Q  Median      3Q     Max 
-25.482  -7.412  -0.610   8.067  35.458 

Coefficients:
                     Estimate Std. Error t value Pr(>|t|)    
(Intercept)          16.52579    3.71016   4.454 1.45e-05 ***
PBI                   0.03674    0.09776   0.376  0.70752    
educacion_superior    0.02811    0.04006   0.702  0.48375    
estabilidad_politica -2.28049    1.44166  -1.582  0.11539    
fuerza_laboral        0.12907    0.06268   2.059  0.04089 *  
corrupcion            4.12161    1.37662   2.994  0.00313 ** 
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 11.74 on 185 degrees of freedom
Multiple R-squared:  0.09218,   Adjusted R-squared:  0.06765 
F-statistic: 3.757 on 5 and 185 DF,  p-value: 0.002903
Regresion: modelo 1
 (1)
(Intercept) 16.526***
(3.710)
PBI 0.037
(0.098)
educacion_superior 0.028
(0.040)
estabilidad_politica -2.280
(1.442)
fuerza_laboral 0.129*
(0.063)
corrupcion 4.122**
(1.377)
Num.Obs. 191
R2 0.092
R2 Adj. 0.068
AIC 1490.8
BIC 1513.6
Log.Lik. -738.409
F 3.757
RMSE 11.55
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Variable dependiente= Escaños; Variables independientes= PBI, Educación Superior, Estabilidad Política, Fuerza Laboral femenina, Corrupción.

Regresión estandarizada


Call:
lm(formula = escanos ~ PBI + educacion_superior + estabilidad_politica + 
    fuerza_laboral + corrupcion, data = data_estandarizada)

Residuals:
    Min      1Q  Median      3Q     Max 
-25.482  -7.412  -0.610   8.067  35.458 

Coefficients:
                     Estimate Std. Error t value Pr(>|t|)    
(Intercept)           23.9415     0.8495  28.183  < 2e-16 ***
PBI                    0.3272     0.8708   0.376  0.70752    
educacion_superior     0.6332     0.9024   0.702  0.48375    
estabilidad_politica  -2.2271     1.4079  -1.582  0.11539    
fuerza_laboral         1.8499     0.8984   2.059  0.04089 *  
corrupcion             4.1232     1.3771   2.994  0.00313 ** 
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 11.74 on 185 degrees of freedom
Multiple R-squared:  0.09218,   Adjusted R-squared:  0.06765 
F-statistic: 3.757 on 5 and 185 DF,  p-value: 0.002903
Regresion: modelo 2
&nbsp;(1)
(Intercept) 23.942***
(0.850)
PBI 0.327
(0.871)
educacion_superior 0.633
(0.902)
estabilidad_politica -2.227
(1.408)
fuerza_laboral 1.850*
(0.898)
corrupcion 4.123**
(1.377)
Num.Obs. 191
R2 0.092
R2 Adj. 0.068
AIC 1490.8
BIC 1513.6
Log.Lik. -738.409
F 3.757
RMSE 11.55
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Regresión con variable de control


Call:
lm(formula = escanos ~ PBI + educacion_superior + estabilidad_politica + 
    fuerza_laboral + corrupcion + igualdad, data = data)

Residuals:
     Min       1Q   Median       3Q      Max 
-23.6162  -8.4044  -0.4788   7.3258  31.5131 

Coefficients:
                     Estimate Std. Error t value Pr(>|t|)    
(Intercept)          -6.74446    6.35293  -1.062 0.289795    
PBI                   0.03423    0.09323   0.367 0.713892    
educacion_superior    0.07558    0.03968   1.905 0.058394 .  
estabilidad_politica -5.15604    1.52154  -3.389 0.000859 ***
fuerza_laboral        0.07019    0.06125   1.146 0.253299    
corrupcion            4.61491    1.31748   3.503 0.000578 ***
igualdad              7.16985    1.62579   4.410 1.76e-05 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 11.2 on 184 degrees of freedom
Multiple R-squared:  0.179, Adjusted R-squared:  0.1522 
F-statistic: 6.685 on 6 and 184 DF,  p-value: 2.042e-06
Regresion Anidada: modelo 1 y 3
&nbsp;(1)
(Intercept) -6.744
(6.353)
PBI 0.034
(0.093)
educacion_superior 0.076+
(0.040)
estabilidad_politica -5.156***
(1.522)
fuerza_laboral 0.070
(0.061)
corrupcion 4.615***
(1.317)
igualdad 7.170***
(1.626)
Num.Obs. 191
R2 0.179
R2 Adj. 0.152
AIC 1473.6
BIC 1499.6
Log.Lik. -728.814
F 6.685
RMSE 10.99
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Regresión con variable de control estandarizada


Call:
lm(formula = escanos ~ PBI + educacion_superior + estabilidad_politica + 
    fuerza_laboral + corrupcion + igualdad, data = control_estandarizado)

Residuals:
     Min       1Q   Median       3Q      Max 
-23.6162  -8.4044  -0.4788   7.3258  31.5131 

Coefficients:
                     Estimate Std. Error t value Pr(>|t|)    
(Intercept)           23.9415     0.8101  29.555  < 2e-16 ***
PBI                    0.3049     0.8304   0.367 0.713892    
educacion_superior     1.7027     0.8940   1.905 0.058394 .  
estabilidad_politica  -5.0354     1.4859  -3.389 0.000859 ***
fuerza_laboral         1.0060     0.8778   1.146 0.253299    
corrupcion             4.6167     1.3180   3.503 0.000578 ***
igualdad               4.5069     1.0220   4.410 1.76e-05 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 11.2 on 184 degrees of freedom
Multiple R-squared:  0.179, Adjusted R-squared:  0.1522 
F-statistic: 6.685 on 6 and 184 DF,  p-value: 2.042e-06
Regresion: modelo 4
&nbsp;(1)
(Intercept) 23.942***
(0.810)
PBI 0.305
(0.830)
educacion_superior 1.703+
(0.894)
estabilidad_politica -5.035***
(1.486)
fuerza_laboral 1.006
(0.878)
corrupcion 4.617***
(1.318)
igualdad 4.507***
(1.022)
Num.Obs. 191
R2 0.179
R2 Adj. 0.152
AIC 1473.6
BIC 1499.6
Log.Lik. -728.814
F 6.685
RMSE 10.99
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Regresión estandarizada con variable de control estandarizada

Regresion Anidada: modelo 3 y 4
&nbsp;apropiacion (II) &nbsp;apropiacion (IV)
(Intercept) 23.942*** 23.942***
(0.850) (0.810)
PBI 0.327 0.305
(0.871) (0.830)
educacion_superior 0.633 1.703+
(0.902) (0.894)
estabilidad_politica -2.227 -5.035***
(1.408) (1.486)
fuerza_laboral 1.850* 1.006
(0.898) (0.878)
corrupcion 4.123** 4.617***
(1.377) (1.318)
igualdad 4.507***
(1.022)
Num.Obs. 191 191
R2 0.092 0.179
R2 Adj. 0.068 0.152
AIC 1490.8 1473.6
BIC 1513.6 1499.6
Log.Lik. -738.409 -728.814
F 3.757 6.685
RMSE 11.55 10.99
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Comparar modelos

Tabla ANOVA para comparar modelos
Res.Df RSS Df Sum of Sq F Pr(>F)
185 25499.90 NA NA NA NA
184 23062.24 1 2437.663 19.44868 1.76e-05

Se escoge el segundo modelo.

Column {data-width=500}

Linealidad

Homocedasticidad


    studentized Breusch-Pagan test

data:  modelo_con_control
BP = 8.8855, df = 6, p-value = 0.1801

Normalidad de Residuos


    Shapiro-Wilk normality test

data:  residuals_std
W = 0.98803, p-value = 0.1076

Multicolinealidad

                 PBI   educacion_superior estabilidad_politica 
            1.045228             1.211595             3.347131 
      fuerza_laboral           corrupcion             igualdad 
            1.168139             2.633219             1.583185 

Valores Influyentes

Valores Cook’s Distance para una mejor visualizavión de valores influyentes

Valores influyentes (según Cook's Distance): 4 27 44 71 74 99 105 144 156 172 189 

ANÁLISIS FACTORIAL y CORRELACIÓN

Column

GRÁFICO DE MATRIZ DE CORRELACIÓN

Este gráfico nos permite ver si las asociaciones entre las variables propuestas son débiles, moderadas o fuertes.

Column

Análisis Factorial Exploratorio (EFA)

Se explorará la data y verificaremos si el análisis respectivo nos arroja factores que resumen cada uno un conjunto de variables potenciales a utilizar.

Para ello, es necesario realizar 2 test para confirmar si, en efecto, los datos en cuestión permiten llevar a cabo un análisis factorial.

Test de Kaiser-Meyer-Olkin (KMO)

Kaiser-Meyer-Olkin factor adequacy
Call: KMO(r = dataClus)
Overall MSA =  0.6
MSA for each item = 
             escanos   educacion_superior                  PBI 
                0.60                 0.80                 0.54 
estabilidad_politica           corrupcion       fuerza_laboral 
                0.56                 0.57                 0.75 

Test de Bartlett

$chisq
[1] 239.7492

$p.value
[1] 1.594801e-42

$df
[1] 15

Column {data-width=500}

VERIFICACIÓN: Matriz ADECUADA

Hnula: La matriz de correlación es una MATRIZ IDENTIDAD

[1] FALSE

Hnula: La matriz de correlación es una MATRIZ SINGULAR

[1] FALSE

DETERMINACIÓN DE FACTORES

Parallel analysis suggests that the number of factors =  2  and the number of components =  NA 

Se sugiere 2 factores

REDIMENSIONAR

Resultado Inicial


Loadings:
                     MR1    MR2   
escanos               0.275       
educacion_superior    0.204  0.362
PBI                   0.109 -0.518
estabilidad_politica  0.803  0.341
corrupcion            0.835  0.287
fuerza_laboral        0.387       

                MR1   MR2
SS loadings    1.62 0.604
Proportion Var 0.27 0.101
Cumulative Var 0.27 0.371

Resultado Final(mejorado)


Loadings:
                     MR1    MR2   
escanos                           
educacion_superior                
PBI                         -0.518
estabilidad_politica  0.803       
corrupcion            0.835       
fuerza_laboral                    

                MR1   MR2
SS loadings    1.62 0.604
Proportion Var 0.27 0.101
Cumulative Var 0.27 0.371

DIAGRAMA: RESULTADO DEL EFA

No se encuentró un concepto subyacente

Análisis CONGLOMERADO y CLUSTERIZACIÓN

Column

Analisis: pasos para la clusterización

El proceso de clusterización comienza con la selección de las variables relevantes para el análisis y la creación de un nuevo rowname basado en la columna de países, lo que permitirá clasificar los países en subgrupos sin perder los datos asociados.

En primer lugar, se observa que la correlación entre la variable central (en este caso, “escanos”) y algunas de las variables seleccionadas no es significativamente alta, siendo la regulación económica y el nivel de corrupción las que presentan las correlaciones más altas con la variable central.

Para llevar a cabo la clusterización, se intentó utilizar las estrategias de Partición y Jerarquización; sin embargo, debido a que ninguno de los 3 métodos (PAM, AGNES, DIANA) nos dieron más que un cluster, se optó por usar un método alternativo llamado Silhouette Method para identificar clusters. Se hizo una modificación en la sintaxis para que pueda ser aplicado a la sintaxis del gráfico de Siluetas por medio de la sintaxis de PAM. Este último nos arrojó el resultado de un K=2. Al aplicar este algoritmo, se identificaroon valores mal clusterizados a través del índice silhouette. Por medio de otro análisis, se obtuvo que 6 países presentaron un silhouette width negativo, lo que ya indicaba el índice silhouette de manera gráfica.

Inicio del proceso de clusterización: se calcula número de clusters

Por medio de una estrategia alternativa, como se mencionó en al apartado anterior, se obtendrá el número de clusters adecuado para este análisis.No obstante, en primer lugar se hizo el análisis de PAM, AGNES y DIANA, para que se visibilice esta limitación en los datos.

Column {data-width=500}

PAM

DIANA

AGNES

Ninguno de los 3 métodos identifica una agrupación de los países más allá de 1 solo cluster.

Column

ALTERNATIVA DE CLUSTERIZACIÓN

No refleja la variabilidad que se esperó considerando la magnitud de la data propuesta.Sin embargo, para fines prácticos, se considerará el K=2 para el análisis posterior.

Clauster vía ALTERNATIVA

escanos educacion_superior PBI estabilidad_politica corrupcion fuerza_laboral pam
Afghanistan 0.2528704 -1.5419017 0.1999660 -2.6972675 -1.4419099 -2.3504507 1
Albania 0.4578292 0.7619047 0.0931981 0.1608037 -0.5214845 -0.0043094 1
Algeria 0.1493613 0.5923742 -0.0974292 -0.7980182 -0.6149847 -2.4218968 1
Andorra 1.8494368 -1.2480721 -0.7917076 1.6967312 1.3167464 1.4559413 2
Angola 0.4982773 0.3660036 -0.1690823 -0.5450109 -0.8870936 1.5975080 1
Antigua and Barbuda -1.0552297 0.6309397 -1.6557983 1.0218765 0.2896649 0.1830972 2
Argentina 1.3911261 -0.7462609 -0.6476125 -0.0036463 -0.1124962 -0.2543012 1
Armenia -0.0375580 0.6219016 -0.3444258 -0.7200215 0.0477849 0.5259551 1
Australia 0.5364039 1.5677117 0.4263512 0.9524237 1.6835576 0.7005935 2
Austria 1.2667914 0.1962150 -0.2807671 0.9788948 1.5284498 0.4012732 2

Column {data-width=700}

Evaluación de uso: SILUETAS

> Las barras negativas indican paises mal clusterizados

Valores mal clusterizados

[1] "Micronesia, Fed. Sts." "Moldova"               "Monaco"               
[4] "Mongolia"              "Montenegro"            "Morocco"              

6 países de 191

Promedio de cada cluster

  pam    escanos educacion_superior        PBI estabilidad_politica corrupcion
1   1 -0.1503072         -0.2313357  0.1180823           -0.5878538 -0.6431091
2   2  0.2376478          0.3657606 -0.1866977            0.9294445  1.0168077
  fuerza_laboral
1     -0.1751074
2      0.2768590

Cluster 1: Países con baja representación femenina en el parlamento, baja educación superior para mujeres, inestabilidad política y menor participación laboral femenina. Cluster 2: Países con mejor representación femenina en el parlamento, mayor graduación femenina y participación laboral, pero que enfrentan desafíos económicos y altos niveles de corrupción.

Visualización comparativa

                    [,1]        [,2]
Afghanistan  0.409133712 -0.07566571
Albania      0.005299341 -0.07512481
Algeria      0.208530643 -0.03072667
Andorra     -0.326520910 -0.16735989
Angola       0.097755984 -0.20294184

Dimensiones Nuevas: dim1, dim2